深度加强学习(DRL)在跨不同领域的序列决策任务中取得了显着的成功,但其对黑盒神经体系结构的依赖阻碍了可相互可预性,信任和在高风险应用程序中的部署。可解释的深度强化学习(XRL)通过通过特征级别,州级,数据集级别和模型级解释技术来实现透明度来解决这些挑战。本调查提供了对XRL方法的全面审查,评估了其质量和定量评估框架,并探讨了它们在政策改造,副本的鲁棒性和安全性中的作用。此外,我们研究了通过从人类反馈(RLHF)学习的强化学习的大语模型(LLM)的增强学习的整合,从而优化了AI与人类偏好的一致性。我们通过高照明开放研究挑战和未来的指导来结束,以促进可解释,可靠和负责任的DRL系统的发展。
主要关键词
![arxiv:2502.06869v1 [cs.lg] 2025年2月8日PDF文件第1页](/bimg/d/d6d3ab24c6e25273d18441532107be44eda21d8d.webp)
![arxiv:2502.06869v1 [cs.lg] 2025年2月8日PDF文件第2页](/bimg/b/b234b2602be8dc03d08bb89184ba17635720b9cd.webp)
![arxiv:2502.06869v1 [cs.lg] 2025年2月8日PDF文件第3页](/bimg/5/57e453541d78a71adf73e24e99e83b945abb3ef5.webp)
![arxiv:2502.06869v1 [cs.lg] 2025年2月8日PDF文件第4页](/bimg/c/ceac78d9bb16f6cac3721f600f18bca07a64da87.webp)
![arxiv:2502.06869v1 [cs.lg] 2025年2月8日PDF文件第5页](/bimg/0/084762b6be7a9c7c0d5b36e6102269558196b635.webp)
